论文推荐|[AAAI 2021] SPIN:用于场景文本识别的结构保持内部偏移网络
一、研究背景
图 1 规则和不规则场景文本的例子:(a)规则场景文本,(b)不规则场景文本的几何失真,(c)不规则场景文本的色彩失真,(d)不规则场景文本的几何和色彩失真
因为现有的识别方法对规则文本识别已经非常强大了,所以阅读不规则文本成为了一个具有挑战性但热门的研究话题。尽管现有的大多数矫正方法都局限于几何矫正,但是形状失真问题并不能够覆盖到场景文本识别中的所有困难情况。强度变化、低亮度、阴影、背景和成像噪声,甚至一些人类也不能察觉的噪声,这些恶劣的条件也会给深度学习带来困难。文章把这种类型的问题称为色彩失真。
通常色彩失真可以分为如图2所示的两种情况,分别是模式间(Inter-pattern)问题和模式内(Intra-pattern)问题。作者把像素强度值相同的所有像素点统称为模式。如图2(a)所示,模式间的色彩失真是指噪声模式与文本模式相近(例如低对比度或低亮度)或者是文本模式的强度比较分散。解决方法是分离文本模式和背景模式,并且将每个字符聚合为统一的文本模式。如图2(a)中把‘L’,‘O’,‘V’,‘E’的像素强度和背景的强度分离,同时使字符间的强度接近,文本会变得更容易识别。如图2(b)所示,模式内的色彩失真是指文本模式受到阴影,遮挡等噪声的干扰,例如图2(b)中左下方的阴影与‘L’重合的情况。因此作者提出了SPIN模块,去解决这两种色彩失真问题。
二、方法介绍
图 3 SPIN的总体框架:(a)输入图片x将首先被送进一个精心设计的网络,然后分别输出更新后的图片x和一组参数,(b)使用生成的参数对更新后的图片进行结构保留的变换
网络的整体框架如图3所示,SPIN由两个组件构成,分别是结构保留网络(SPN)和辅助的内部偏移网络(AIN)。SPN和AIN的结构如表1所示,其中SPN用于解决模式间问题,AIN是一个辅助网络用于解决模式内问题。这两个组件能够起到互补的作用。下面详细介绍着两种组件的原理。
表 1 SPN和AIN的网络结构
2.1 结构保留网络 (SPN)
受启发于结构保留变换(SPT)[1],作者发现基于SPT的变换还能够通过调整像素点的强度值来矫正图片的色彩失真问题。SPT的一般形式可以定义为多个幂函数的线性组合,如下所示:
其中
为了简单起见,
其中
本质上,结构保留是通过过滤输入图片的强度等级来实现的。强度等级相同的所有像素点,经过变换后强度等级不会改变,其中模式的定义是强度等级为c的像素点集合{(i,j)|x(i,j)=c}。直观上来说,SPN从两方面来矫正色彩失真:(1)将有用模式和噪声模式分配到不同的强度等级,使得它能够分离开,这样能够生成更好的对比度和亮度的图片。(2)将不同强度等级的模式映射到相近的强度等级,并聚合它们,这有利于渲染更统一的图片。上述的情况适合解决模式间的问题,但不能解决模式内的问题。
2.2 辅助的内部偏移网络 (AIN)
AIN可以用来解决模式内的色彩失真问题,噪声模式和有用模式的强度相似会导致模式混淆,从而会引发模式内的色彩失真。作者借用了几何变换中偏移量的概念[2],引入了色彩偏移量(即内部偏移量),内部偏移量的定义如下:
其中
2.3 融入几何矫正的扩展
空间变换通过预测相应点的坐标,来矫正模式的位置偏移。然后根据这些点,对图片进行重采样。具体定义如下:
其中
三、主要实验结果及可视化效果
表2 与SOTA方法的比较
表3 对比色彩矫正和几何矫正的方法
表4 对比基于STN的矫正方法
图 5 可视化矫正效果和识别结果
总结
相关资源
参考文献
撰稿:黄宇浩编排:高 学
审校:连宙辉
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们:D